Korrekturhilfe für Lehrkräfte: KI-Magie gegen die Bildungskrise

Deutschlandweit mangelt es an Lehrkräften. Statt aber für mehr Personal zu sorgen, setzen viele Landeschulbehörden auf sogenannte Künstliche Intelligenz. Wie hohl die Versprechen der Anbieter solcher Lösungen sind, demonstrierten Rainer Mühlhoff und Marte Hennigsen beim diesjährigen Chaos Communication Congress.

29.12.2024 um 20:26 Uhr - Esther Menhard - in Öffentlichkeit - 19 Ergänzungen

Zwei Redner:innen stehen auf der Bühne vor dunkler Leinwand — Die KI:Philosoph:innen Marte Hennigsen und Rainer Mühlhoff entzaubern den Mythos, KI würde Lehrkräfte entlasten. – Screenshot vom Recording des Vortrags

Marode Schulen, überfüllte Klassen, erschöpfte Lehrkräfte – Deutschland steckt in der Bildungskrise. Laut dem jährlich erscheinenden Schulbarometer der Robert Bosch Stiftung wissen Lehrkräfte recht genau, was sie brauchen, um einen besseren Unterricht zu machen. Kleinere Klassen oder sanierte Schulgebäude etwa. Ganz oben auf der Liste steht jedoch: mehr Personal.

Statt aber in Lehrkräfte und die Pädagog:innen-Ausbildung zu investieren, setzen einige Länder vermehrt auf sogenannte Künstliche Intelligenz. Die Hersteller von KI-Tools versprechen schnelle Lösungen. Die Programme sollen Lehrer:innen im Arbeitsalltag entlasten, etwa durch Korrekturhilfen oder bei der Bewertung von Schüler:innenleistungen.

So erklärte die Landesschulbehörde Rheinland-Pfalz auf Anfrage der KI-Philosoph:innen Marte Hennigsen und Rainer Mühlhoff, für Lizenzen des KI-Herstellers fobizz bisher pro Jahr 1,75 Millionen Euro auszugeben. Zugleich knappste das Land im Sommer beim dringend benötigten Lehrer:innenachwuchs: In den Ferien bekamen die Referendar:innen kein Geld.

Mit ihren Angeboten rennen deutsche KI-Hersteller wie fobizz, fiete.ai und myTAI offene Türen ein. Denn die Begeisterung für entsprechende Tools ist bei Entscheider:innen im Bildungsbereich sehr groß. Anfang des Jahres verkündete Christine Hauck vom Schulbuchverlag Cornelsen auf der Bildungsmesse didacta: KI könne Lehrkräfte entlasten und die Bildung verbessern.

Dass sich die öffentliche Debatte um den Bildungsnotstand dem Allheilmittel KI zuwendet, hat einen hohen Preis. Denn statt in effektive Maßnahmen zu investieren, verlassen sich Länder und Bildungseinrichtungen auf Tools, die nicht so funktionieren, wie KI-Hersteller es versprechen.

So lautet das ernüchternde Fazit von Mühlhoff von der Universität Osnabrück und Marte Hennigsen von der Universität Maastricht. In ihrem Talk „Chatbots im Schulunterricht!?“ auf dem 38. Chaos Communication Congress in Hamburg nahmen sie die Korrekturhilfe für Lehrer:innen des Unternehmens fobizz unter die Lupe. Aus ihrer Sicht erbringen die KI-Werkzeuge nicht einmal ansatzweise die angepriesene Arbeitserleichterung. Vielmehr müssten Lehrkräfte einen zusätzlichen Aufwand betreiben, wenn sie diese sinnvoll im Unterricht einsetzen wollen.

Korrekturhilfe mit Hilfe von OpenAI

Die Korrekturhilfe ist eines von vielen KI-Produkten, welches das Hamburger IT-Unternehmen auf einer Plattform für Weiterbildungen und KI anbietet. Es wirbt damit, das Angebot speziell von Lehrkräften für Lehrkräfte zu entwickeln. Hinter dem Nutzer:innen-Interface steckt ChatGPT4, das beliebte Chatbot-System des US-amerikanischen Unternehmens OpenAI.

Lehrer:inen können die von Schüler:innen eingereichten Hausaufgaben auf der Plattform hochladen. Sie erhalten dann eine Bewertung des Aufsatzes im PDF-Format, inklusive Feedback in Stichpunkten und einer Benotung.

Mühlhoff und Hennigsen wollten wissen, ob sich das Produkt tatsächlich dafür eignet, Hausaufgaben zu bewerten und damit Lehrkräften Arbeit abzunehmen. Für ihren Test gingen sie niedrigschwellig vor. Sie simulierten zehn Hausaufgaben von Schüler:innen und ließen diese je fünf Mal vom Programm bewerten.

Dabei kamen erschütternde Ergebnisse zutage. Das Programm vergab für mehrere Texte bei jeder Bewertung eine andere Note – in einem Fall für ein und dieselbe Aufgabe die Noten ungenügend, befriedigend und sehr gut. Nur in zwei Fällen blieb sich das Programm in der Benotung treu. Am besten bewertete es die fingierten Hausaufgaben, die Hennigsen und Mühlhoff mit ChatGPT erstellt hatten. Darüber hinaus versagte die Korrekturhilfe in puncto inhaltliche Richtigkeit, sie erkannte Falschbehauptungen nicht. Und die KI merkte in den Texten dort Fehler an, wo tatsächlich keine waren.

Vom Aberglauben der Neutralität

Fobizz inszeniere sich als Start-up und verkenne dabei seine gesellschaftliche Rolle, kritisieren Hennigsen und Mühlhoff. Denn das Unternehmen pflegt nicht nur Geschäftsbeziehungen mit Rheinland-Pfalz, sondern auch mit Bremen, Sachsen, Mecklenburg-Vorpommern und Saarland. Laut Hennigsens Berechnungen kaufe jede vierte Schule in Deutschland KI-Systeme bei fobizz ein.

Damit sei fobizz längst über den Start-up-Status hinaus. Kund:innen verlassen sich auf das Versprechen, wonach die KI die Leistungen von Schüler:innen objektiv bewerte. Gerade jüngere Lehrkräfte würden sich viel von der KI erhoffen, wissen Hennigsen und Mühlhoff aus Gesprächen. Denn der KI fehle es weder an Kondition noch an Motivation.

Der sogenannte automation bias verschärft die Gefahr, dass KI breit genutzt wird, obwohl sie unausgereift ist und Ergebnisse liefert, die hinter den Erwartungen zurückbleibt. Der Begriff beschreibt die Tendenz von Personen, technologischen Lösungen mehr zu vertrauen als menschlichen Fähigkeiten. KI sei letztlich nicht mehr als ein Werkzeug, Symptome zu bekämpfen und auch dafür nur unzureichend geeignet, so Hennigsen und Mühlhoff.

Obendrein geraten Schulen zunehmend in die Abhängigkeit von Tech-Konzernen wie OpenAI. Denn KI-Unternehmen wie fobizz geben hochsensible Daten von Schüler:innen und Lehrkräfte an diese weiter.

19 Ergänzungen

Anonym sagt:

29. Dezember 2024 um 22:55 Uhr

„Lehrer:inen können die von Schüler:innen eingereichten Hausaufgaben auf der Plattform hochladen. Sie erhalten dann eine Bewertung des Aufsatzes im PDF-Format, inklusive Feedback in Stichpunkten und einer Benotung.“

Äääähhm… wie bitte?!?!

Es sollte doch eigentlich jedem bekannt sein, dass die Modelle nach wie vor Fehler machen und man ihre Aussagen immer überprüfen sollte.
Wenn man aber einen Aufsatz benoten muss, muss man sich trotzdem überlegen, warum der Schüler das geschrieben hat, was er geschrieben hat.
In dem Fall müsste der Lehrer sich den beim Korrekturlesen also zwangsläufig ohnehin mit dem geschriebenen Aufsatz auseinandersetzen. Zusätzlich müsste er noch überprüfen, ob ChatGPT hier richtig liegt oder vollkommenen Stuss erzählt.

Was für eine Entlastung soll denn das am Ende des Tages sein?
Gleiches gilt für alle Aufgaben, wo individuelle Denkweisen / Meinungen gefragt sind

Vor allem wenn ich lese „Statt aber in Lehrkräfte und die Pädagog:innen-Ausbildung zu investieren, setzen einige Länder vermehrt auf sogenannte Künstliche Intelligenz.“, frage ich mich, ob die Leute, die das entschieden haben
a) ansatzweise verstehen, wie die Modelle funktionieren
b) die Modelle selbst mal bei solchen Dingen genutzt haben

Ich tippe mal bei beidem auf nein.
1. Anonym sagt:
  
  30. Dezember 2024 um 19:04 Uhr
  
  Richtig. Und es ist ihnen auch egal, denn ihre Klientel kann sich gute Betreuung leisten.
  
  Das gilt praktisch überall, wo „KI“ ohne Rücksicht auf Qualitätsverlust propagiert oder eingesetzt wird: der Qualitätsverlust ist Teil des Ziels.
a sagt:

30. Dezember 2024 um 00:01 Uhr

O tempora, o mores!
Zweiland! sagt:

30. Dezember 2024 um 12:48 Uhr

Naja, das wird vielleicht wie mit den Gameshows.

„Bleiben Sie bei Note 2 stehen, oder wechseln zur nächsten Tür?“
Wenn nicht der Zonk dahinter steht, hat man die Chance, sich abzuheben!

***

Hat mal jemand überlegt, welchen Unterschide Geschriebenes zu Gelebtem macht? Von wegen wenn wir von Intelligenz sprechen, und mit Internet trainieren… Da könnte es noch einige lustige (potentiell tödliche) Fehlerkategorien geben. Schon mal von der Sonne geblendet worden?
Harriet Moser sagt:

30. Dezember 2024 um 13:37 Uhr

Das Bildungswesen steht vor der Aufgabe, nicht nur den Einsatz von KI-Tools zu bewerten und anzuleiten, sondern auch eine entscheidende Rolle in der Entwicklung zukunftsrelevanter Kompetenzen zu spielen. Der Einsatz von KI in der Bildung darf nicht nur als technologische Unterstützung gesehen werden, sondern muss stets im Kontext der Förderung von kritischem Denken und Future Skills betrachtet werden.

*Kritisches Denken im Umgang mit KI fördern*
Reflexion statt blinder Nutzung: Lehrkräfte und Lernende müssen dazu befähigt werden, die Ergebnisse von KI-Systemen kritisch zu hinterfragen. KI generiert Lösungen, die nicht immer fehlerfrei oder ethisch vertretbar sind. Diese Fähigkeit, zwischen Nutzen und Risiko abzuwägen, ist essenziell.
Bewusstsein für Bias: KI-Systeme sind nur so gut wie die Daten, mit denen sie trainiert werden. Schulen und Bildungsinstitutionen sollten Lernende darauf vorbereiten, mögliche Verzerrungen in den Ergebnissen von KI zu erkennen und deren Konsequenzen zu verstehen.
Ethik in der Technologie: Die Integration von KI in den Unterricht sollte immer mit ethischen Diskussionen einhergehen, um die gesellschaftlichen Auswirkungen von Technologie zu beleuchten.

*Future Skills entwickeln*
Digitale Kompetenzen: Lernende müssen verstehen, wie KI funktioniert, wie sie eingesetzt wird und welche Grenzen sie hat. Das schließt grundlegende Programmierkenntnisse und das Wissen über Datensicherheit mit ein.
Problemlösungs- und Innovationsfähigkeit: KI kann repetitive Aufgaben übernehmen, aber kreative und innovative Lösungen entstehen durch Menschen. Das Bildungswesen muss Lernräume schaffen, in denen diese Fähigkeiten gezielt gefördert werden.
Kooperationsfähigkeit in Mensch-KI-Teams: In der Arbeitswelt der Zukunft werden Menschen zunehmend mit KI-Systemen zusammenarbeiten. Lernende sollten darauf vorbereitet sein, KI als Werkzeug effektiv einzusetzen, ohne ihre eigene Entscheidungskompetenz zu verlieren.
1. Anonym sagt:
  
  30. Dezember 2024 um 15:37 Uhr
  
  Das wäre der einzig richtige Ansatz. Nur müsste dafür in Bildung, Pädagogik und die Infrastruktur der Schulen auch endlich mal investiert werden.
  Aber offenbar hofft man sich auch dieses gesellschaftliche Problem durch das Allheilswundermittel KI lösen zu können.
  
  Ein weiteres vorprogrammiertes Scheitern.
  1. Anonym sagt:
    
    30. Dezember 2024 um 20:45 Uhr
    
    „Aber offenbar hofft man sich auch dieses gesellschaftliche Problem durch das Allheilswundermittel KI lösen zu können.“
    
    Nein, man will maximalen Profit und maximale Macht erreichen, und „KI“ ist dafür hilfreich, auch gerade weil Bildung der Massen dabei stört.
    
    „Ein weiteres vorprogrammiertes Scheitern.“
    
    Die sind leider erfolgreich. Die haben nur andere Ziele als Sie.
    
    Siehe USA: Bildung ist eine sehr teure Ware, qualifiziertes Personal wird importiert, das ist billiger und erpressbarer, führt zB Musk bei X vor.
2. Anonym sagt:
  
  2. Januar 2025 um 13:31 Uhr
  
  „Der Einsatz von KI in der Bildung darf nicht nur als technologische Unterstützung gesehen werden, sondern muss stets im Kontext der Förderung von kritischem Denken und Future Skills betrachtet werden.“
  
  Man muss auch bedenken, welche Fertigkeiten man lernt. Prompting würde ich eher als Anti-Skill bezeichnen. Bis auf den Teil, sich mit Sachen auseinanderzusetzen, und unvoreingenommen und ohne Scheu zu testen. Das große Aber kommt leider automatisch mit, denn es wird vielerorts bereits Apple/Microsoft/Google gepredigt, was sämtlichen denkbaren Lernzielen zuwiderläuft. Ab wo kann es denn besser werden? Richtig, wie auch in der Verwaltung, gilt hier: Erst Digitalisierung, dann KI.
  Die FDP hatte damals den zweiten Satzteil nicht richtig hinbekommen.
  
  „KI kann repetitive Aufgaben übernehmen“
  Man müsste nur welche bauen, die das dann auch leisten können. LLMs z.B. bieten sich da qualitativ eigentlich gar nicht unbedingt an. Nichts wäre schlimmer als Fehler zu wiederholen, ohne sie zu bemerken…
  1. Anonym sagt:
    
    2. Januar 2025 um 17:44 Uhr
    
    „Nichts wäre schlimmer als Fehler zu wiederholen, ohne sie zu bemerken…“
    
    Bei der Euphorie um „KI macht weniger Fehler [bei, als, auch Freitags?] !“, muss man das immer bedenken, auch wenn man Fehlerkorrektursysteme bedenkt, die in Unternehmensprozessen und bei Menschen durchaus eingebaut sind. Unterstützung durch KI sollte hier durchaus angedacht werden, allerdings ist die Schnittstellenfrage nicht geklärt. KI als Ergebnislieferer hat schwerwiegende Nachteile, für Mensch und KI – bauen wir die Schnittstelle so, dass Menschen nicht sinnvoll teilnehmen, haben wir den Salat. Zudem gilt immer zu unterscheiden, welche Sorte KI zum Einsatz kommt, inkkusive Trainingsdaten/Methoden etc. p.p.
    
    Ein klassisches Beispiel für vorsichtige Patienten, wenn Zeit ist, wäre mit Diagnose 1 zu Arzt 2 zu laufen, und nochmal zu fragen. Gegebenenfalls auch ohne Diagnose zu Arzt 2 und mit beiden Diagnosen dann zu Arzt 3. Wie sieht die Fehlerrate hier aus, und wie testet man das? Was ist wenn man bevorzugt Ärzte wählt, die kritisch gegenüber vorgschlagenen Behandlungsmethoden sind? Reduzieren sich die Fehler? Kann „die KI“ das auch?
    
    Bei Notfällen, also bei wenig Zeit, wäre ein Vorschlagssystem interessant. Es geht zwar auf Kosten einiger Menschenleben, aber man würde interessante Daten über Assistenzsysteme sammeln, oder nicht? Kommt eben drauf an, wie man es macht…
Tom Gugel sagt:

2. Januar 2025 um 10:02 Uhr

Bildung hat auch etwas mit Kreativität und selbstständigem Denken zu tun. Wie soll eine nach Schema F mit Unmengen Daten gefütterte Datenbank die nach Schablone vorgeht (und sich dann auch noch KI nennt) in der Lage sein so etwas benoten zu können?
Die Menschheit rennt mit diesem KI-Hype doch nur wie die Ratten dem sog. Heilsbringer mit der Flöte in den Abgrund hinterher
1. KI Hype sagt:
  
  4. Januar 2025 um 13:11 Uhr
  
  @Tom
  Dem stimme ich zu!
  
  Leider sind die Verantwortlichen nicht mehr Herr der Lage und sind wohlmöglich auch selber das eigentliche Problem. Zur Ausrede als Hilfsmittel… kommt der KI Hype genau passend.
2. Anonym sagt:
  
  5. Januar 2025 um 22:57 Uhr
  
  die Lehrkräfte an den Schulen, an denen ich war haben das nicht anders gemacht.
Anonymus sagt:

4. Januar 2025 um 09:35 Uhr

„Das Programm vergab für mehrere Texte bei jeder Bewertung eine andere Note – in einem Fall für ein und dieselbe Aufgabe die Noten ungenügend, befriedigend und sehr gut. “
Das wäre bei fünf Lehrern, die bewerten sollen, auch kaum anders.
1. Anonym sagt:
  
  6. Januar 2025 um 18:23 Uhr
  
  Im Idealfall kennen die Lehrer die Schüler allerdings. Kann man auch einen Nachteil nennen, allerdings ergibt die Anwesenheit einer soziale Komponente bei verschiedensten Altersklassen durchaus Sinn. Auch hier stellt sich wieder die Frage nach dem Test, und den Fehlerkorrekturmechanismen.
  
  „Verrückte“ Lehrer gab es nun mal ab und zu, öfter aber passte die Chemie irgendwie nicht, Bias vs Brödel. Wir sind halt keine Haie.
  1. Bias vs Brödel. Wir sind halt keine Haie. sagt:
    
    10. Januar 2025 um 11:57 Uhr
    
    > allerdings ergibt die Anwesenheit einer soziale Komponente bei verschiedensten Altersklassen durchaus Sinn.
    
    Zu genau welchem Zweck? Und noch genauer: Welchen Sinn bei der Leistungsbeurteilung?
    
    > Bias vs Brödel. Wir sind halt keine Haie.
    Meine Hermeneutik scheitert an diesem Satz. Was wollen Sie uns sagen, und woran scheitern Sie dabei?
    1. Anonym sagt:
      
      11. Januar 2025 um 15:51 Uhr
      
      > „Zu genau welchem Zweck? Und noch genauer: Welchen Sinn bei der Leistungsbeurteilung?“
      
      Die Soziale Komponente bedeutet, dass Schüler den Lehrern bekannt sind, und auf die Schüler eingegangen werden kann. Noten stehen für manche Altersklassen in Frage, auch wenn die bisher getesteten Alternativen nicht immer das Gelbe vom Ei darstellen. Mit einer reinen Leistungsbeurteilung kann im Lernprozess niemand etwas anfangen. Auch mit KI könnten Lehrer allerdings auch Hilfestellungen geben, wie man sich im Lernprozess weiter orientieren soll, dafür müssen Lehrer aber die KI verstehen – und oh Wunder, Gabriel, für den Zeitaufwand kann man die KI auch gleich weglassen. Ansonsten verlieren wir zu viel, wenn wir alles von KI machen lassen. Denkbar ist vielleicht Rechtschreibprüfung u.ä., aber als Hilfsmittel, nicht als vorgegebene Grundnote. Auch hier müssen aufgrund von Handschriften Korrekturen möglich sein. Ach ja, Handschriften lesen lernen, gerade am Anfang. Tolles Thema für eine fertiggebackene KI. Aber Aufsätze einschätzen, ist absurd. Hier geht es auch um den relativen Fortschritt der Schüler und z.T. um Ideen. Dafür ist KI das Dümmste, was man ansetzen kann. Bei Endprüfungen könnte man überlegen, aber da sind wir beim Konzept der objektiven Prüfung, im Sinne von Zentralabitur. Und die Überlegung sollte dabei auch zuerst erfolgen.
      
      >Meine Hermeneutik scheitert an diesem Satz. Was wollen Sie uns sagen, und woran scheitern Sie dabei?
      Haben Sie ein überhöhtes Selbstverständnis? Inwiefern scheitert hier irgendjemand, wobei, und inwiefern gibt es jenes „uns“, was soll das denn bitte sein?
      „Keine Haie“ bedeutet sicherlich, nicht fertig aus der Blase zu kommen. „Bias vs Brödel“ – idk, vielleicht voreingenommene Lehrer, sowie effektiver Brödel, so dass Chemie nicht stimmt.
      1. Anonym sagt:
        
        13. Januar 2025 um 19:53 Uhr
        
        > „Bias vs Brödel“ – idk, vielleicht voreingenommene Lehrer, sowie effektiver Brödel, so dass Chemie nicht stimmt.
        
        Ohne zu wissen, ob es darum wirklich geht, könnte man hier einwerfen, dass effektiver Brödel vielleicht etwas meint wie „zu faire Prüfung“ mit dem grundsätzlich schwer zu evadierenden Ergebnis, um Note 3 herum, egal wie gut wer vorbereitet ist. Vielleicht ist auch der Gegensatz gemeint, spezifischer Voreingenommenheit gegenüber allgemeiner interaktionspotentialreduzierter Unzugänglichkeit? Eventuell? So kann die Chemie derart sein, dass es keine Hilfestellung bzgl. der Metaebene gibt, wie man sich dem Lehrer gegenüber verhalten muss, um das Optimum herauszuholen, bzw. um nicht in der falschen Schublade zu landen. Bei spezifischem Bias, haben Ängstliche oder mit schroffer Ansprache Überforderte vielleicht eine sehr gute Chance auf eine 5, unabhängig vom konkreten Potential, während bei Brödel nicht mal die Einserkandidaten eine zwei Schaffen, weil alles so übermäßig fair zugeht. Bei spezifischem Bias fällt man durch, oder wird unnötig herumgeknetet, während bei Brödel vielleicht gar keine Interaktionsfläche zu bestehen scheint.
        
        Am Ende heißt es noch, Lehre sei eh nicht die Aufgabe, die Schüler müssten selbst sehen, wo sie abbleiben (Haie).
Bias vs Brödel. Wir sind halt keine Haie. sagt:

13. Januar 2025 um 13:06 Uhr

Ich scheitere an „Bias vs Brödel.“ WTF is „Brödel“? „effektiver Brödel“?
Aus welchem Sprachraum stammt das Wort?
1. Anonym sagt:
  
  14. Januar 2025 um 12:16 Uhr
  
  Wer sagt, dass das Wort richtig geschrieben wird?
  
  Vielleicht soll ein Verb anklingen, einfach zu überblickende Übersicht: https://bdo.badw.de/suche?lemma=br%C3%B6deln&options%5Bexact%5D=1&options%5Bcase%5D=1
  
  Die Substantivierung könnte Ausdruck eines Einfrierens sein. Dann, äh, wäre es etwas wie „gefriergetrocknet“, vielleicht? Oder es soll bräsig Agieren bedeuten, also quasi Bräseln.
  
  Effektiv bedeutet wohl, dass es nicht darauf angelegt werden muss.

Dieser Artikel ist älter als ein Jahr, daher sind die Ergänzungen geschlossen.

Korrekturhilfe für Lehrkräfte: KI-Magie gegen die Bildungskrise

Korrekturhilfe mit Hilfe von OpenAI

Vom Aberglauben der Neutralität

Sozialstaatsreform: Kommission empfiehlt Abbau von Grundrechten

ChatGPT: Polizeigewerkschaft bebildert Pressemitteilung mit generiertem Schockerfoto

Generative KI: Finger weg von Bildgeneratoren

19 Ergänzungen